人工智能、计算机软件

从专利视角看扩散模型——超越图像生成

A1.png

Summary

分析与扩散模型相关的已申请的专利,并传递扩散模型相关技术的专利权利化动向及未来前景——第二篇专栏

通过像 Midjourney、DALL-E 2、Stable Diffusion 这样的生成模型,如今任何人都可以轻松利用人工智能生成逼真的图像。然而,除了图像之外,扩散模型是否也可以应用于视频或三维建模(3D modeling)等领域呢?

本专栏将继上一篇之后,继续围绕近年来研究最为活跃的生成模型之一——“扩散模型”,分析除图像以外在各类不同领域(domain)中所公开或申请的相关专利,并探讨扩散模型相关技术的研究动向与未来发展前景。

 

在音频领域中应用扩散模型的专利

 

近年来,除了图像领域外,越来越多的研究尝试将扩散模型应用于其他数据领域。视频(Video)、三维(3D)以及音频(Audio)等领域便是其中的代表。下面,我们将通过由 PI 专利事务所精选的示例专利,探讨扩散模型在非图像领域中是以何种方式被应用的。

首先介绍的专利是由首尔大学提交并获得授权的 KR 2023-0032673《可调节生成速度的语音合成系统》,这是一项在音频领域中应用扩散模型的专利。

 

 

该专利涉及一种接收文本输入并合成与文本内容相符合的语音的模型。该模型主要由三个部分构成:步编码器、文本编码器以及解码器。其中,解码器接收第 n 个高斯噪声(Gaussian noise)作为输入,并输出第 n-1 个高斯噪声。在这一过程中,会同时利用包含扩散时间步(diffusion timestep)信息的“步嵌入(step embedding)”以及对应于希望生成的语音条件(condition)的“文本嵌入(text embedding)”。步嵌入与文本嵌入分别由名为步编码器与文本编码器的独立模块进行编码。这样的构成正是扩散模型执行条件生成(conditional generation)的典型方式。

 

此外,在该发明中,步编码器的“加速采样过程”采用了一种改进方式:即在每个时间步中利用含噪的训练数据进行学习,而在训练结束后的数据生成过程中,跳过一定数量的时间步以提高数据生成速度。该思路借鉴了 DDIM(Denoising Diffusion Implicit Model)的理念。那么,DDIM 又是什么呢?

 

自 DDPM(Denoising Diffusion Probabilistic Model) 出现以来,人们能够通过扩散模型生成质量稳定的数据。然而,DDPM 的核心思想之一是马尔可夫链(Markov chain)的特性,即“x_t的值仅受 x_t-1的值影响”。正因为如此,在模型的数据生成过程中必须为每一个时间步生成中间数据,从而导致整体生成速度较慢。为了解决这一问题,DDIM模型应运而生。DDIM 并未严格遵循马尔可夫链的约束,而是在前向过程(forward process)中,使得 x_t不仅受 x_t-1的影响,也受原始数据 x_0的影响。

 

在数据生成阶段,DDIM 从 x_t预测出 x_0,再由预测得到的 x_0 生成 x_t-1。由于从 x_0预测 x_t-1与从x_0预测 x_t-2之间具有一定一致性,因此即便跳过中间步骤,直接从x_0预测 x_t-2,生成数据的质量也不会显著下降。举例来说,当 T=1000 时,DDPM 需要生成 1000 个中间数据才能得到最终结果;而在 DDIM 中,如果每次跳过一个时间步,只需生成 500 个中间数据;若跳过两个时间步,则仅需生成 250 个中间数据即可。

 

回到该专利,在此发明中,通过调整参数(γ, gamma)的大小,使语音合成模型能够在采样过程中跳过若干时间步。当跳过的 γ 值较大时,时间步之间的间隔变宽,语音合成的质量下降;反之,当 γ 值较小时,时间步间隔变窄,语音合成的质量提高。通过这样的设计,可以根据用户的需求在采样速度与合成语音的质量之间进行调节。此外,与传统的语音合成模型相比,本发明能够以更小的模型规模实现足够高质量的语音输出。

 

该专利的独立权利要求1的构成如下所示。

 

一种可调节生成速度的语音合成系统(100),其特征在于,包括:

文本编码器110,接收文本或音素序列作为输入,并输出文本嵌入;

步编码器120,接收扩散时间步作为输入,并输出用于指示模型当前建模第几个时间步的步嵌入;以及

解码器130,接收第 n 个高斯噪声作为输入,并以所述文本编码器(110)输出的文本嵌入和所述步编码器(120)输出的步嵌入作为条件,输出特定的第 (n-1) 个时间步的高斯噪声。

 

该权利要求的文字本身篇幅较短,仅包含类似 DDIM 这类能够调节数据生成速度的扩散模型所必需的核心构成要素。由此可见,该专利的实质性权利范围被撰写得极为宽泛,可谓是一项具有相当威力的专利。

 

因此,若在服务中打算应用接收文本输入并合成语音的相关技术,则需要进行十分谨慎的规避设计,以避免构成对该专利的侵权。

 

在3D领域中应用扩散模型的专利

 

接下来,我们来看一项由中国南昌航空大学(NANCHANG HANGKONG UNIVERSITY)提交并获得授权的专利——CN 116310153《单视图彩色三维点云重建方法、系统、存储介质及计算机》。该专利属于在 3D领域中应用扩散模型的案例,主要涉及一种方法:接收物体的单视角图像(2D 图像)作为输入,而非依赖完整的立体信息,通过扩散模型生成该物体的彩色点云数据,即表示物体表面形状与颜色的点集合。

 

 

在该专利中,彩色点云的生成方法主要包括以下三个步骤:1)利用扩散模型,根据物体的单视角图像生成物体的点云数据;2)利用物体单视角图像的颜色信息(color implicit code),生成点云的颜色信息;3)结合点云信息与颜色信息,最终渲染生成彩色点云图像。

 

近来,已有多篇研究论文利用训练好的扩散模型,从单视角图像中推理出物体的三维(3D)信息,并取得了令人瞩目的成果。本专利同样基于扩散模型在 3D信息推理中的潜力而提出,展示了扩散模型在更广泛领域中的可扩展性与应用前景。

 

该专利的独立权利要求1如下所示。

 

一种单视图彩色三维点云重建方法,其特征在于,包括:

 

获取任一兴趣图像,并利用图像编辑器对所述兴趣图像进行图像编辑,以得到形状隐编码以及颜色隐编码;

 

基于扩散模型和所述形状隐编码进行点云重建,以得到具有目标形状的目标点云,并根据所述颜色隐编码为所述点云重建进行颜色预估,以得到所述目标点云中各点云的点云颜色;

 

根据所述目标点云所对应的相机参数得到采样点位置,并基于所述目标点云以及所述目标点云中各点云的点云颜色计算出各采样点位置的体密度和辐射度,以渲染出对应的预测点云图像;

 

以真实物体图像作为约束,对所述预测点云图像的点云颜色以及点云形状进行优化,并对优化后的预测点云图像进行结果微调,以实现所述真实物体图像的三维点云重建。

 

从该专利的权利要求内容来看,整体上仅包含了以 二维图像为条件、对目标物体颜色进行估计并生成点云数据的核心必要构成要素。其中虽然包含了“对重建的点云数据进行优化的结构”,但这一部分的内容可以作广义解释,因此该专利的实际权利范围并不狭窄。


因此,与前文分析的语音合成专利类似,在使用由图像生成点云数据的技术时,也需要进行十分谨慎的规避设计,以避免构成对该专利的侵权。

 

然而,将扩散模型应用于图像以外的其他领域并非易事。 回顾第一篇专栏可以发现,与图像领域相比,在其他数据领域中提交的相关专利数量明显更少。 那么,究竟是数据的哪些特性使得扩散模型在非图像领域的应用变得更加困难?又有哪些方法可以用来克服这些问题呢?

 

在视频领域中应用扩散模型的专利

 

与此相关,最后要介绍的一项专利是由 南京智轮数字科技有限公司(NANJING ZHILUN DIGITAL TECH) 申请的、发明名称为 《一种基于扩散模型的动作视频生成方法》(公开号:CN 115761593) 的中国公开专利。该专利主要涉及利用扩散模型生成视频的技术

 

通常,用于图像生成的扩散模型通过逐步添加噪声并再逐步去除噪声的过程来学习图像中像素之间的相关性。经过相关性学习的扩散模型能够以噪声为输入,生成去噪后的图像。

 

然而,视频与图像之间存在显著差异。该差异为视频是由多个图像按时间顺序排列组成的。因此,为了生成自然、连贯的视频,不仅要考虑单帧图像中像素之间的空间关系,还必须考虑前后帧之间的时间特征与动态变化。相比之下,视频生成的复杂度远高于图像生成。例如,如果在生成视频时未能充分考虑时空特征,就可能出现诸如“当球被远远抛出时,本应随着距离增大而变小,但在生成结果中反而变大,从而导致强烈违和感”的问题。

 

也就是说,若直接利用图像生成扩散模型来生成视频,会出现无法预测下一时刻的动作状态的问题。

 

为了解决这一问题,该发明提出了一种方法:通过包含目标动作的训练视频,利用三维卷积神经网络(3D Convolutional Neural Network, 3D CNN)提取对象执行目标动作(action)所需的高度与宽度范围、时间特征以及空间特征,并基于此进行模型学习。这样便能够生成符合目标动作时序与空间特性的自然视频。

 

<2D卷积与 3D卷积的比较(来源:https://arxiv.org/pdf/1412.0767.pdf>

 

如果使用 2D 卷积神经网络 来提取视频的特征,由于 2D 卷积神经网络的输出是二维(2D) 的,因此视频的时间信息无法被保留。

 

相反,3D卷积神经网络 的输出是 三维(3D)体积(volume)形式,因此除了高度和宽度的信息之外,还能够保留视频的时间信息。

 

例如,在一个投掷球体的视频中:

 

 

如果使用 3D卷积神经网络,则在“被投掷的球飞行的视频”中,可以随着时间的推移、帧的变化,捕捉到球体逐渐变小的现象,并且能够获取到手臂的旋转范围不会超出手臂长度等时间与空间特征。

 

 

相反,如果使用 2D 卷积神经网络 来提取视频特征,在“被投掷的球飞行的视频”中,由于未考虑时间上的先后关系,只能获取手和球的位置等空间特征

 

也就是说,该发明通过使用 3D卷积神经网络,能够针对目标动作提取对象的局部特征以及视频的时空特征,从而在视频生成过程中,综合考虑目标动作(action)可实现的高度与宽度范围、时间特征与空间特征,生成自然、连贯的视频

 

该专利的独立权利要求1如下所示。

 

一种基于扩散模型的动作视频生成方法,其特征在于,包括步骤:

 

S1、采集目标动作的视频,对视频进行预处理得到视频帧序列;

 

S2、识别视频帧序列中有对应目标的视频帧序列;

 

S3、利用三维卷积神经网络提取目标的区域特征和视频时空特征图;

 

S4、重新构建目标的时序和空间连接先后关系;

 

S5、通过智能学习机识别目标不同时序的视频帧,并对目标动作进行分类命名;

 

S6、根据预设动作视频生成时间长短,制作同一目标不同命名的前后时间段的动态视频;

 

S7、根据输入的目标和动作的分类命名,输出同一目标命名的前后时间段的动态视频。

 

权利要求1大体可分为以下四个步骤:

 

(1) 将视频帧序列与目标进行对应,并通过 3D卷积神经网络 生成目标及视频的时空特征图;

 

(2) 重建对象的时间顺序与空间连接关系,并通过人工智能学习模型识别目标在不同时间点的视频帧,从而对目标的动作进行分类;

 

(3) 根据预设的动作视频生成时间,生成相同对象在不同时间段的视频;

 

(4) 根据输入的目标及动作的分类和名称,提供相同对象在前后时间段的动作(action)视频。

 

与前文所述的图像不同,视频中额外包含时空特征。若在生成视频时未考虑这些时空特征,就可能出现诸如:“当球被远远抛出时,原本应随着距离增加而变小,但反而被生成得更大”的问题。

 

该专利通过 (1) 将视频帧序列与目标对应,并利用 3D卷积神经网络 生成目标及视频的时空特征图, 能够获取目标在执行动作(action)时所涉及的高度与宽度范围、时间特征与空间特征,从而确保生成的视频在时序与空间表现上更加自然与合理

 

例如,在一个投掷球体的视频中:

 

 

如果使用 3D 卷积神经网络,则在“被投掷的球飞行的视频”中, 可以随着时间的推移、帧的变化,捕捉到球体逐渐变小的现象, 并且能够获取到手臂的旋转范围不会超出手臂长度等时间与空间特征

 

此外, (2) 通过重建对象的时间顺序与空间连接关系,并利用人工智能学习模型识别对象在不同时间点的视频帧并对其动作进行分类, 可以防止重建后的对象在播放过程中出现视频帧时序或空间上的不自然现象。 例如,在“投掷球体(目标动作)”的场景中,可以通过这种方式重建被投掷球体的时间顺序与空间连接关系, 使得球体随着离手距离的增加逐渐变小,并在被投掷的方向上持续飞行。

 

进一步地, (3) 根据预设的动作视频生成时间生成相同对象在不同时间段的视频;(4) 根据输入的对象与动作的分类及名称, 提供相同对象在先前与之后时间段的动作(action)视频, 从而能够获取到具有目标对象与目标动作名称的动作视频。

 

具体地,通过该专利:

 

即使在“投掷球体的视频”仅包含两个帧的情况下,

 

也能够获得关于“投掷球体的视频”的更长版本的视频。

 

从该专利的各项构成来看,(1) 通过 3D 卷积神经网络生成目标及视频的时空特征图的构成,可在从视频中获取时空特征的过程中作为通用方法予以使用。

 

另外,(3) 根据预先设定的动作视频生成时间生成同一对象在不同时段的视频,以及 (4) 根据输入的对象与动作的分类及名称,提供同一对象在此前与此后时段的动作(action)视频的构成,似乎公开了可直接应用于如 Imagen Video 这类通过文本提示(text prompt)输入动作名称以生成视频的方法的相关构成。

 

但就 (2) 重建对象的时间顺序与空间连接关系,并通过人工智能学习模型识别对象在不同时机的视频帧并对对象的动作进行分类的构成而言, 通过不执行通过人工智能学习模型识别对象在不同时机的视频帧的步骤,可以实现规避。

 

至此,我们考察了在音频、3D、视频领域中利用扩散模型的相关专利。若要在比图像更为复杂的信息构成的数据领域中应用扩散模型,就有必要解决源自各数据领域特性所带来的难点。近来提交的专利通过引入用于克服这些难点的独特解决方案,可以认为扩散模型的应用可能性正在进一步拓展。

 

下一篇将是关于扩散模型的最后一篇专栏,我们将基于目前的情况,探讨未来与扩散模型相关的专利可能会如何布局与展开,敬请关注。

计算机软件专利知识产权教育分析报告趋势

"你有问题想咨询吗?"

"你有问题想咨询吗?"